УДК 004.934 


В.В. Робейко, М.М. Сажок 

Міжнародний науково-навчальний центр інформаційних технологій та систем 
«КіберМова», м. Київ, Україна 

Україна, 03680, просп. Акад. Глушкова, 40, МСІЇ, м. Київ, (маЇуа.гобеїко, загроКк) Фотаї!.сопі 


Розпізнавання спонтанного мовлення на основі 
акустичних композитних моделей слів 
у реальному часі 


У. У. Кореїко, М.М. Заспок 
Уреесп Усієпсе апа Тесіпоіогу Рерагітепі, Іпіегпатопа! КезеатсП апа Тгаїпіпе Сепіег ої 


Іп/оттаїоп Тесіпоїогіез апа 5узіет5 «СурегМома», Куїу, (Кгаїпе 
Окгаїпе, 03680, Асаа. СПЧизПкоу Ауе., 40, МУР, Куїу, (| маЇуа.тобеїко, загрок | Ф ятаї.сот 


Кеа!-Тіте 5Уропіапеоиз УреесПп Кесое?пійоп Вазеа 
оп У/ога Асоизіїс Сотрозіїє Моаеїз 


В.В. Робейко, М.М. Сажок 

Международньй научно-учебньй центр информационньх технологий и систем 
«КиберМова»; г. Киев, Украйна 

Украина, 03650, пр. Акад. Глушкова, 40, МСІЇ, г. Киев, (уаїЇуа.гобеїко, загпок | Фетаї!. сот 


Распознавание спонтанной речи на основе акустических 
КОМПОЗИТНЬКЖХ моделей слов в реальном времени 


У статті розглядається реалізація методів і алгоритмів розпізнавання злитого мовлення на основі 
композиції слів із акустичних генеративних моделей фонем. Аналізуються аспекти оцінки параметрів 
математичних моделей акустичної та лінгвістичної складових системи розпізнавання та перетворення 
графем на фонеми, що поєднує обидві ці складові. Окрема увага приділяється прогнозуванню наголосів 
у словах та врахуванню ознак спонтанності. Базова експериментальна система розпізнавання злитого (у 
тому числі спонтанного) мовлення в реальному часі оперує словником до ста тисяч слів та дає змогу 
набирати текст під диктування. Аналізуються перспективи подальшого розширення словника та 
вдосконалення процедур оцінки параметрів моделей, обговорюються ергономічні питання. 

Ключові слова: розпізнавання мовлення, спонтанне злите мовлення, генеративна модель, 
реальний час. 
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Рассматриваєтся реализация методов и алгоритмов распознавания слитной речи на основе КОМПОЗИЦИИ 


слов из акустических генеративньїх моделей фонем. Анализируются аспекть: оценки параметров 
математических моделей акустической и лингвистической составляющей системью распознавания и 
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преобразования графем в фонемьі, обьединяющей обе зти составляющие. Отдельное внимание уделяется 
прогнозированию ударений в словах и учету признаков спонтанности. Базовая зкспериментальная система 
распознавания слитной (в том числе спонтанной) речи в реальном времени оперируєт словарем до ста 
тьсяч слов, и позволяет набирать текст под диктовку. Анализируются перспективью дальнейшего 
расширения словаря и совершенствования процедур оценки параметров моделей, обсуждаются 
зргономические вопросьї. 

Ключевьге слова: распознаваниєе речи, спонтанная слитная речь, генеративная модель, 
реальное время. 


Вступ 


Системи розпізнавання мовлення поступово займають місце посередника між 
людиною і комп'ютером, витісняючи звичні засоби введення інформації. Для 
англійської мови поруч із програмним забезпеченням диктування на ПК з'явився ряд 
мережних сервісів, що обслуговують введення голосом пошукових запитів або дають 
змогу диктувати лист електронної пошти |1|. При цьому демонструється доволі 
прийнятна працездатність таких систем, навіть враховуючи помітну затримку при 
користуванні мережними сіоийа-сервісами. Очевидно, що такі системи (а) - оперують 
доволі широким лексиконом 1 (6) - виконують обчислення в реальному часі. 

Аналіз патентів комерційних фірм і публікацій провідних наукових центрів 
показує, що найбільш поширена у світі схема розпізнавання мовленнєвого сигналу в 
рамках генеративної моделі або прихованої (неявної) марківської моделі (Ніддеп 
Магкоу Модеі - НММ) побудована на генеруванні послідовності композитних 
мовленнєвих образів (слів або фраз), складених із акустичних моделей фонем, вже на 
етапі акустичного декодування |2|,|3|. Одночасно, за лінгвістичною моделлю, 
оцінюється та враховується вірогідність гіпотетично розпізнаних послідовностей 
слів шляхом прогнозування поточного слова-претендента за одним або більше 
словами-попередниками. 

Загальновідомо, що слов'янські мови характеризуються такими властивостями, 
як величезна кількість словоформ (у 5 - 10 разів більше, ніж в англійській мові) та 
відносно вільний порядок слів у реченні. Це призводить до стрімкого зростання 
робочого словника та до зменшення сили прогнозування в лінгвістичній моделі. Тому 
придатність загальноприйнятих методів і алгоритмів при розпізнаванні слов'янських 
мов підлягає сумніву, 1 це одна з причин пошуку нових схем розпізнавання, зокрема 
таких, що передбачають композицію слів за результатами акустичного декодування (4). 

Сьогодні за допомогою систем розпізнавання мовлення ізольовано вимовлені 
слова та злите підготоване мовлення (наприклад, читання новин) розпізнається з 
надійністю близько 9590 | 1, |3|. У той же час розпізнавання спонтанного мовлення 
має набагато гірші результати. Розпізнавання спонтанного мовлення у реальних 
умовах спілкування (наприклад, за наявності шумів) є надзвичайно актуальною задачею, 
вирішення якої значно розширить сферу використання систем розпізнавання мовлення. 

Вважаючи за необхідне продовжувати дослідження нових підходів, разом із 
тим стверджуємо, що достеменно не відомий резерв опрацьованої багатьма роками 
схеми розпізнавання (|2|, |3|. Адже досі не з'ясовано, наскільки системи на основі 
загальноприйнятого підходу обмежені в лексиці зі збереженням працездатності 
розпізнавання в реальному часі на обчислювальній базі, доступній пересічному 
користувачеві. Тому ціль даної статті - побудувати систему реального часу, яка 
може експлуатуватися на сучасному ПК для перетворення мовленнєвого сигналу на 
текст та як диктувальна машина. 
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У наступному розділі описуються засоби побудови бази даних і знань для роз- 
пізнавання мовлення, обтрунтовується вибір усних та писемних даних, приділяється увага 
перетворенню графем на фонеми, врахуванню ознак спонтанності. Далі описується діюча 
система, її характеристики та можливості застосування. У висновках пропонується ряд 
удосконалень, обговорюється сучасний стан досліджень та їх подальші перспективи. 


Параметри генеративної моделі та їх оцінювання 


Вхідний мовленнєвий сигнал перетворюється на послідовність акустичних 
векторів фіксованого виміру У, «у зунаудо) у результаті препроцесингу. Тобто 
відбувається перехід у простір первинних ознак. Потім декодер намагається знайти 
послідовність слів У, З Мн У), яка найбільш вірогідно відповідає 


спостережуваному У. Іншими словами, декодер має відшукати 


У з агатах Р(му | У). (1) 


Не зважаючи на складність, ряд дискримінантних моделей намагається 
оперувати з цим виразом напряму |3). Утім, найбільш продуктивною є генеративна 
модель, що розглядає еквівалентну задачу, яка виникає внаслідок застосування 
правила Баєса до (1): 

У з агетах р(У | уу) Р(м.). (2) 


МУ 


Міра схожості р(Х | уу) становить акустичну складову, а ймовірність Р(уму) - 


лінгвістичну складову генеративної моделі розпізнавання мовленнєвого сигналу. 
Розглянемо детальніше акустичну складову або акустичну модель (АМ,. 

Кожне вимовлене слово у" розкладається на послідовність /., базових звуків, тобто 

фонем. Ця послідовність є вимовою слова або його фонемною транскрипцією 


чи - іоназечаю ) з 


Під час розробки мовленнєвих технологій повинні враховуватися індивідуальні, 
ситуативні особливості мовлення диктора, вимова слів у потоці мовлення, а це 
спричиняє введення багатозначності при переході до фонемного тексту. 

Щоб урахувати множинність варіантів вимови слова, міра схожості Р(У | м) 


обчислюється за багатьма фонемними транскрипціями: 


РОВНО ВЕКІОРАЦО Цю) (3) 


У цьому виразі сума береться за всіма допустимими послідовностями вимови 
для уу, 0 - деяка послідовність фонемних транскрипцій, для якої виконується: 


Р(дІж)- Піч" Ім), (4) 


де 4 - допустима вимова слова уп). 


На практиці, при обчисленні виразу (3) береться максимум замість суми, а за 
рахунок зменшення варіантів альтернативної вимови слів досягається економія 
ресурсів при обчисленні (4). 
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Акустична сутність фонеми ад подається у вигляді генеративної моделі, як 
показано на рис. Іа, де (а; ) - статистичні параметри переходу між станами, 
1 50) ) - розподіли у просторі первинних ознак для робочих станів. 

Ці розподіли фактично апроксимують у просторі первинних ознак ті області, 
через які проходять траєкторії, що відповідають акустичній реалізації фонеми 4. 
Такий загальний вигляд має базова НММ. 

Технічно перехід від робочого стану генеративної моделі до одного зі станів, з 
яким робочий стан пов'язаний, здійснюється за одиницю відліку часу, а матриця 


Г аг; у залежить від топології НММ та має вигляд стохастичної матриці, що формує 
ланцюг Маркова. 


Допустима послідовність станів 


Фта (01, 05,..., вт і (5) 


за якою генерується еталонний (модельний) сигнал, є деякою акустичною 
транскрипцією спостережуваного сигналу. 

Відповідно до генеративної моделі, ці стани пов'язані умовними залежностями 
як між собою, так і з відліками спостережуваного сигналу. 

На рис. 16 ці залежності для базової НММ подані у вигляді динамічної 
баєсівської мережі (ДБМ) (31. 

У прийнятій тут нотації дискретні змінні зображено в квадратах, неперервні 
змінні - у колах, спостережувані змінні затінені, а приховані - на світлому тлі. 

Цей вигляд зручний для ілюстрації розширень базової генеративної моделі, 
зокрема для введення додаткових параметрів і залежностей, наприклад, між 
сусідніми відліками спостережуваного сигналу. 

Крім того, ДБМ зручна для пояснення дискримінантних моделей. 


а 422 азз 
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г га ХУ є 
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Рисунок 1 - Базова генеративна модель (НММ) фонеми: а) - у вигляді згорнутого 
графа динамічного програмування та б) - в термінах динамічної баєсівської мережі 


Для кращої якості апроксимації областей перебування фонеми замість одного 
нормального закону (гаусоїда) Су; и, 5) вводиться суміш гаусоїдів: 


М М 5» 
ь (у)я Хот С(узио"?, 207), (6) 


т-і 
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Де Сіт - Яапріорна ймовірність перебування у т-у гаусоїді )-о стану, яка 
М 
задовольняє умовам функції ймовірності, зокрема с,, 20 і роя «з Ї, 
тіаї 

Сумішшю гаусоїдів моделюються асиметричні розподіли та розподіли з багатьма 
модами. Це дає змогу точніше відобразити розмаїття сигналу на акустичному рівні. 

Важливим питанням є обгрунтоване забезпечення діагональності кожної 
коваріаційної матриці У. Для цього, при потребі, проводиться декореляція 
простору первинних ознак шляхом застосування дискретного косинус-перетворення. 
Таким чином, апроксимація областей перебування фонем здійснюватиметься 
об'єднанням еліпсоїдів, витягнутих уздовж осей координат. 

На рис.2 зображено проекцію на двовимірний простір траєкторії руху 
реалізації слова оса у просторі первинних ознак. Відліки спостережуваного сигналу 
У; 172 проходять через області перебування відповідних фонем: й (фонема-пауза), о, 
с, А (а наголошена), 7. Фонема-пауза 7 апроксимується еліпсоїдом, що відповідає 
одному гаусоїду в єдиному стані моделі цієї фонеми 71. Припускається, що 
ймовірність апроксимації гаусоїдом деякої точки всередині відповідного еліпсоїда 
більша за 0,1. Моделі фонем о та А містять по три стани: ої, 02, 03 та АЇ, А2, 43, 
розподіл кожного з них апроксимується двома компонентами суміші нормальних 
законів. Гаусоїди, що відповідають одному й тому ж стану в межах фонеми, мають 
однакове штрихування. Модель фонеми с містить також три стани, але для 
апроксимації розподілу кожного зі станів використовується лише один гаусоїд. 
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Рисунок 2 - Проекція на двовимірний простір траєкторії руху реалізації слова оса 
у просторі первинних ознак 
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У процесі розпізнавання методом динамічного програмування серед усіх 
допустимих акустичних транскрипцій шукається така, що найкращим чином 
апроксимує траєкторію сигналу. Зображена на рис. 2 траєкторія сигналу найкраще 
апроксимується акустичною транскрипцією вигляду (5), що набуває значень: 
біло 1, біль 01, 61724: 02, 025277. 03, бзвзі є Сі, 0323972 С2, дода З с3, Одзав с 4Ї, 
0д9:59 х 42, Обов з 43, та бетлг 2 ТІ. 

Радіус чорного кола в точці математичного сподівання гаусоїда відповідає 
сукупно значенням ймовірності переходу в той же стан та апріорній імовірності 
перебування в гаусоїді цього стану згідно з (6). Числовий проміжок вказує ті часові 
відліки, які найкраще апроксимуються гаусоїдом. Для деяких гаусоїдів такий проміжок 
відсутній. Маркером квадратної форми на траєкторії показано окремі відліки. Центр 
гаусоїда, який найкраще цей відлік апроксимує, з'єднаний із ним суцільною лінією. 

Параметри акустичної моделі оцінюються за мовленнєвим корпусом ітераційно. 
Спочатку вводиться одна компонента суміші нормального закону. Потім поступово 
нарощуються кількість гаусоїдів шляхом розщеплення тих, що мають найбільшу 
норму коваріаційної матриці. Максимальна кількість гаусоїдів оцінюється з розрахунку 
не менше 50 реалізацій фонеми на один гаусоїд. 

Лінгвістична складова моделі (2) полягає в оцінюванні ймовірності 


Р (ж )є Д Р(», І тром): (7) 


Кз! 


Кількість попередніх слів може бути якої завгодно довжини, тому, з міркувань 
уможливлення реалізації обчислень, доцільно її обмежити до М - 1, і таким чином 
сформувати лінгвістичну модель (ЛМ): 


Р(ж)з- 


де М обирається в межах від 2 до 4. Імовірності М-грам оцінюються за текстовим 
корпусом шляхом статистичного підрахунку. Наприклад, якщо позначити через 
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Найбільшою теоретичною проблемою при побудові ЛМ є оцінка ймовірностей 
тих МУ-грам, для яких не набирається достатньо статистики. Тоді ця оцінка 
проводиться на підставі статистик (М - 1)-грам |3). Іншою проблемою є наявність у 
текстовому корпусі слів, які не ввійшли до робочого словника. Прийнятним 
вирішенням цієї проблеми є введення категорії невідомого слова, що замінює в 
текстовому корпусі всі позасловникові слова. Крім того, значні фізичні обсяги ЛМ 
можуть стати на перешкоді практичного використання системи розпізнавання. 


Побудова діючої системи та її дослідна експлуатація 


На рис.3 зображено загальну структуру базової системи перетворення мовлен- 
нєвого сигналу на текст, що має компоненту реального часу, у якій реалізовано 
власне декодер, та компоненту, яка у відкладеному режимі здійснює оцінювання 
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параметрів математичної моделі. Для створення базової системи використано як 
власні розробки, так і різноманітний програмний інструментарій доступний в 
Інструментарій оцінки параметрів 


Інтернеті: НТК, НТУ, ЛіПиз5, МІТІМ, СМИ ІМ |5, 6, 7|. 
Текстовий 
риси кисні | ці 
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Рисунок 3 - Загальна структура базової системи перетворення 
мовленнєвого сигналу на текст 


Відповідь 
розпізнавання 


Компонента реального часу отримує мовленнєвий сигнал через одне з доступних 
джерел (мікрофон або файл). При проходженні через детектор голосової активності 
сигнал розбивається на сегменти за ознаками наявності голосового введення. 
Використовуються прості ознаки в амплітудно-часовому просторі на основі амплітуди 
та кількості переходів через нуль. Блок препроцесора переводить сигнал у простір 
первинних ознак. При цьому застосовано мел-кепстральне перетворення з відніманням 
середнього значення. Декодер порівнює вхідний сегмент із гіпотезами еталонного 
сигналу відповідно до (2) - (8), застосовуючи деяку обережну стратегію відкидання 
мало перспективних гіпотез |6). Для цього використовується акустична та лінгвістична 
складові математичної моделі. Послідовність слів, яка генерує найбільш схожий 
еталонний сигнал, оголошується відповіддю розпізнавання. 

Акустичну модель сформовано на основі однієї з перших версій мовленнєвого 
корпусу АКУЕМ |8). Ця версія корпусу містила менше 40 годин розмічених 
експертами звукових записів українського мовлення (помилки анотації складали 
близько 5 - 6906). Топологія НММ кожної фонеми відповідає рис. Іа, за винятком 
фонеми-паузи, що допускає перехід із 3-0 стану в 1-й, та короткої паузи, яка містить 
лише один робочий стан та допускає його пропуск. На відміну від рекомендацій (51, 
уточнювання параметрів робочого стану короткої паузи проводиться незалежно від 
фонеми-паузи. Нарощування гаусоїдів відбувається поступово, з більшою швидкістю 
для частотних фонем. Максимальна кількість гаусоїдів у стані фонеми - 36. 

Робочий словник системи розпізнавання складається із частотного словника 
текстового корпусу та додаткових словників (словники соціальних і територіальних 
діалектів, словник суржику, словники власних назв, абревіатур та ін.). На відміну від 
англійської, для української мови до алфавіту фонем включено як наголошені, так і 
ненаголошені голосні. Інформація про місце наголосу у словах отримується із 
словника УМІФ |9Ї, для додаткових словників наголоси проставляються експертом 
або прогнозуються |). Найчастотніші одно- та двоскладові слова доповнені варіантом 
без наголосу. 

Транскриптор перетворює слова з інформацією про наголос на послідовність 
фонем, за якими створюються композитні акустичні моделі слів як для декодера, так 
і при оцінюванні параметрів АМ. У транскриптор закладено багатозначний підхід ||, 
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який моделює особливості, властиві конкретній мові, на основі вивчення законо- 
мірностей зв'язку між орфографічними символами та символами з алфавіту фонем. 
Експертом сформовані правила перетворення «графема- фонема», у яких передаються 
індивідуальні особливості вимови дикторів 1 частково враховано коартикуляцію та 
редукцію звуків у потоці мовлення. У середньому на кожне слово припадає не більше |, 
2 варіанта транскрипції. Також вирішується проблема розшифрування чисел і символів. 

В основу текстового корпусу для лінгвістичної моделі покладено матеріал, 
завантажений з ряду Інтернет-сайтів, що містять тексти новин та публіцистики (6092), 
художніх творів (8906), енциклопедичного характеру (2496), текстів юридичного 
спрямування (397). 

Потрібно зазначити, що серед матеріалу, завантаженого з сайтів новин, містяться 
коментарі та відгуки відвідувачів, тобто присутні текстові зразки спонтанного типу 
мовлення. 

Під час оброблення текстового корпусу текстовим фільтром числа та символи 
перетворювалися на слова. 

Було вилучено зайві фрагменти, повтори на рівні абзаців, речення, що містять 
суттєвий відсоток слів, відсутніх у словнику УМІФ. Загальний обсяг текстового 
корпусу складає 2 ГБ, куди ввійшло 17,5 млн речень або біля 250 млн реалізацій слів. 

Оброблений текст надходить на вхід інструментарію формування лінгвістичної 
моделі на основі У-грам. 

При цьому додатково вилучаються речення, які містять певний відсоток слів, 
відсутніх у робочому словнику, а у реченнях, що залишаються, такі слова позначаються 
як невідомі. 

Максимальний порядок сформованої моделі - 3. Для робочого словника на 100 
тисяч слів загальна кількість 3-грам становить 38,5 мільйонів, частка невідомих слів 
склала близько 2,590, обсяг файлу - 1,2 ГБ. 

Для моделювання ознак спонтанного мовлення введено клас прозорих слів, куди 
ввійшли екстралінгвістичні явища (неінформативні слова та звуки). 

На основі компоненти реального часу (рис. 3) розроблено базову систему 
перетворення мовленнєвого сигналу на текст, що використовується для експеримен- 
тальних досліджень. Графічний інтерфейс користувача, доданий до базової системи 
(рис. 4), дає змогу демонструвати розпізнавання злитого мовлення в реальному часі 
на ПК |Ошибка! Источник ссьмлки не найден.О). 

Умови експлуатації розробленої системи враховують очікування потенційного 
користувача. 

Словник системи покриває загальновживану лексику та множину слів деяких 
предметних областей: наприклад, природничі науки, будівництво, медицина, юри- 
спруденція тощо. 

У нашому випадку обрано тематику новин (політика, економіка, культура, спорт 
і погода). На акустичному рівні, система сприймає мовлення будь-якого адекватного 
користувача. 

Заздалегідь підготоване мовлення, прочитані тексти, спонтанні висловлювання 
розпізнаються на одному рівні. 

Щодо вимог до якості запису мовленнєвого сигналу доступними для пересічного 
громадянина засобами, не розглядаються сильно зашумлені записи та перекриття 
мовлення різних осіб в одному каналі запису. 

Під час дослідної експлуатації цієї системи використовувалися словники на 10, 
20, 50 1 100 тисяч слів. Оскільки для всіх словників декодування відбувалося в 
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реальному часі (до 15905 на процесорі 7), було проведено більш детальне дослі- 
дження максимального словника у 100 тисяч слів. 

Система тестувалася як диктувальна машина десятьма експертами. В умовах 
експлуатації, описаних вище, послівна помилка розпізнавання становить у сере- 
дньому 1090. Перевірено ефективність поповнення словника новими словами, що 
сприймаються як незнайомі на рівні лінгвістичної моделі. 

Експертами у словник додавалися власні назви та рідкісна термінологія. 
Можливість ставити голосом розділові знаки, починати новий абзац та відміняти 
останню операцію (у формі голосової команди, виділеної паузами) підвищила 
ергономіку системи в цілому. 
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Рисунок 4 - Система диктування на ПК демонструє послівну помилку розпізнавання 
менше 590 на фрагменті з 90 слів загальної лексики 


Висновки 


У статті досліджено найбільш поширену у світі схему розпізнавання мовленнєвого 
сигналу, що реалізує принцип аналіз через синтез. Створена на основі цієї схеми 
система перетворення мовлення на текст демонструє прийнятну працездатність при 
дослідній експлуатації. 

Робота над описаною системою розпізнавання перебуває в початковій стадії. У 
найближчому майбутньому передбачається здійснити ряд заходів, що покращать 
надійність розпізнавання та розширять сферу використання системи. Ці заходи 
стосуються збільшення словника, оптимізації лінгвістичної моделі шляхом уведення 
класів слів, застосування контекстно залежних моделей фонем, кластеризацію дикторів 
та настроювання на голос диктора, передбачення знаків пунктуації та регістру слів. 
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Важливим завданням залишається суттєве розширення бази навчальної вибірки 
для акустичної та лінгвістичної компонент моделі. Цьому сприятиме вирішення 
задачі відповідності тексту 1 сегмента мовленнєвого сигналу. Актуальним залишається 
більш точне перетворення чисел 1 символів на графеми, зокрема з урахуванням роду 
й відмінків та їх неоднозначності. 

Для систем диктування не менш важливо розвинути взаємодію з користувачем 
при редагуванні тексту: пропонувати варіанти виправлення, використовуючи багато- 
значність відповіді розпізнавання, та запам'ятовувати виправлення при подальшому 
диктуванні. Потрібно передбачити розширення робочого словника користувачем 
через віднесення нових слів до категорії невідомого слова, а також через оновлення 
параметрів лінгвістичної моделі. 

Для поліпшення результатів розпізнавання планується посилити відповідність 
лінгвістичної моделі предметній області, стилю та жанру мовлення. Для досягнення 
цього, текстовий корпус лінгвістичної моделі потрібно розбити на декілька частин та 
провести їх інтерполяцію з метою мінімізувати ентропію для зразків текстів 
потрібної предметної області. 
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У. У. Корфеїко, М.М. Заспок 
Кеаї-Тіте 5ропіапеоцзя 5реесіп Кесоєпійоп Ваз5ед оп УМога 


Асоц5йс Сотрозіїє Моаеія 

Тріз5 рарег дезсгібе5 ітріетепіайоп ої піеїрод5 апа аїсогіїбпа5 Їог Ше ашіотайс 
зреесі гесоєпійоп Ба5ей оп мога соптрозійоп ргосеегдтпе їтот асоцзійс рропете тоаеіз. 
Зисп а дезієп ої Ше 5рееср-іо-іехі десодег 15 сопуепйопа! Шгоцепоці Фе могій апа 15 
то5і ргодисйуєе Їог У/езіегп Іапемаєез |3). ТРре аїт 15 їо ехріоге Ше сопуепйопа! 5реесі 
гесоєпійоп арргоасі аррпед іо Фе ОКтаїпіап Іапецає»є. 

Сотрагайуєїу іо М/езіегп Іапецаєєз, З5Іамопіс Іапецаєє5 ШКе ЮКтаїпіап аге рієПІу 
іпПйесйуєе ул геїайумеїу Нее ууога огаег. ТПі5 пттеап5 Шаї Ше могкіпеє дїсйопагу єгому8 іп 
йтез апа регріехісу ої Ше Іапецаєє тоае! 15 риєе епогтоцзіу. Вис ЇЇ пом/ по опе ап5мегей 
рому ге5ігісіедй плц5: Бе а сопуепйопаї 5реесп гесоєпійоп 5укіет о Баме ап ассеріабіе 
регіогтапсе їп геа! йте оп а ттодегп РС. То ап5мег Ші5 диезйоп ехрегітепіаПу уу/е ц5е омуп 
апа улаєІу аматабіе їо0ЇКії8 Їог вреесі апа Іапецаєє ргосез5іпе. 

Еіг8Чу, ме апаїуге Ше Чага-дгіуеп птешШодз 0 е5йтаїе рагатеї(егя ог Бої асош5ійїс 
апд Пппеці5ос сопропепіз ої Фе паїфетайсаї тодеі. 40 роиг8 ої 5зреесп Чака аге іаКеп 
йот Фе АКОЕМ согриз |34| (о езітаївб НММ рагатеїег5 їЇог ЮКгаїпіап рропетез. 2 
СВ ої домпіоадеад апа ргосеззеай (ехі даіа аге сопуегіед іо 3-єгат Іапсцаєє тоаеі. Тре 
єгаррете-іо-рропете сопуегзіоп ргоседиге (аКеє іпіо ассошпі уу/огИ 5іге85 і55це апа 
зропіапеоця сопійпиоця 5реесП Геаїшгея Г|. 

Тре бБазіс ехрегітепіа! зрееср-іо-іехі 5у5іет 15 абіе (о орегаїе а 100К уосабиїіагу 
оссируїе Іе855 Шап 1590 ої 17 ргосе585ог йте. Кезітісіпеє Ше іприї зреесп (0 соптоп 
Ісхіса апа педа дотаїп у/е тау сопсіиде Ше ргасіїса! арріпсабійіу ої Ше 5убіет. А 
дето-уегзіоп ої (ре дїскайоп тасріпе 15 ауайабіе Їог і(5 регіогтпапсе арргаїза! |З). 
ЕВіпаПу, у/е Фії5си55 Ше рго5ресйуєе ої дїсйопагу апа дФотаїп ехіепзіоп, рагатеїег 
е5йтайоп іпаргоуетепі апа егеопотіс 155ипе5. 
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